1996. 8. 『고문연구』 9


<朝鮮王朝實錄> 전산화(電算化)를 위한 마크업(MarkUp) 규칙


金     炫*1)


   1. 머리말

   2. <국역 조선왕조실록> 데이터베이스

   3. 데이터베이스 구축을 위한 자료 정리 작업

   4. <국역 조선왕조실록> 본문 마크업

   5. <원전 조선왕조실록> 데이터베이스


  1. 머리말


  정보 통신 기술의 급속한 발전과 더불어 학술 분야에서도 각종 연구 자료를 전산화(電算化)하고자 하는 노력이 급증하고 있다.  방대한 규모의 연구 자료를 데이터베이스로 구축한 상태에서 컴퓨터가 제공하는 검색 기능을 활용하게 되면 필요한 정보를 손쉽게 찾을 수 있으며, 이것은 연구자들의 연구 생산성을 크게 진작시켜 줄 수 있기 때문이다. 최근 우리나라의 학술정보 전산화는 종합적인 서지 목록 데이터베이스뿐 아니라 전문적인 학술 자료의 본문 정보 데이터베이스 구축으로까지 발전하고 있으며, 구축된 데이터베이스 정보는 인터넷과 같은 국제적인 정보 통신망을 통해 전세계에 제공되고 있다.

  학술 연구 자료를 데이터베이스화 하고자 하는 시도는 우리의 전통문화를 연구하는 한국학 분야에서도 활발히 추진되어 지난 1995년 10월 「서울시스템(주)」 「학국학 데이터베이스 연구소」에서 <국역 조선왕조실록> 데이터베이스 개발을 완료하여 CD-ROM으로 간행한 데 이어 현재는 <원전 조선왕조실록>의 데이터베이스 개발 사업이 「국사편찬위원회」의 협력 사업으로 추진되고 있으며, 「정신문화연구원」에서 조사․정리한 <조선시대 과거 급제자 명부> 자료도 작년에 <잡과방목(雜科榜目)> 데이터베이스가 만들어진 데 이어 금년 8월에는 <사마방목(司馬榜目)> 데이터베이스가 개발을 완료하여 일반에 보급될 예정이다.

  이와 같은 고전 자료 데이터베이스의 개발은 전산 기술자나 고전 연구자 어느 쪽 단독의 노력으로만은 만들어질 수 없으며, 두 분야 연구자들의 긴밀한 협업을 통해서만 이루어질 수 있는 일이다. 이 공동의 노력은 두 분야의 연구자들이 상대 분야의 전문 지식을 가능한 범위까지 충분히 이해하고 그것을 자신의 전문 지식과 조화시키는 것이라고 할 수 있다. 필자는 본고에서 <조선왕조실록> 데이터베이스 개발의 사례를 소개하고 이를 통해 인문학 연구자들이 고전 자료의 데이터베이스 개발을 위해 담당해야 할 역할과 그 역할에 관련된 기술적 사항 몇 가지를 제시하고자 한다.


  2. <국역 조선왕조실록> 데이터베이스


  우리나라의 고전 연구 자료 중에서도 역사, 철학, 사회학 등 여러 연구 분야에 걸쳐 활용도가 높을 것으로 예상되는  <국역 조선왕조실록> 데이터베이스는 「세종대왕기념사업회」와 「민족문화추진회」에서 간행한 <국역 조선왕조실록>의 본문과 역주를 기본 텍스트로 삼고, 여기에 전체 개별 기사의 요지 및 「국사편찬위원회」에서 편수한 태조에서 성종까지의 기사 분류 색인을 추록한 것이다. 이 데이터베이스에서는 <조선왕조실록>의 모든 기사를 일자별(日字別), 분류별(分類別) 색인을 통해 탐색될 수 있도록 하였으며, 본문 속의 모든 한글․한자(漢字) 단어에 대한 조건 검색 기능도 부여하였다.  <세종실록> 「오례(五禮)」 부분에 수록된 500 종의 도식과 삽도 또한 정밀하게 가공 입력하여 멀티미디어 데이터베이스의 면모를 갖추었으며, 본문 속의 모든 동일 단어와 어구는 서로 연계하여 참조할 수 있도록 하였다. 검색된 자료의 2차적인 활용의 편의를 증진시키기 위해서 검색 결과의 출력 및 화일 저장 그리고 다른 응용 프로그램으로의 이동 복사 기능을 구현하였다.

  이 데이터베이스에 수록된 실록 기사의 수는 총 362,161 건, 그 속에 쓰여진 문자는 모두  1억9천8백만 자에 달하는 것으로 조사되었다. 본문 속의 단어는 풀 텍스트 검색을 할 수 있도록 모두 색인화 되었는데, 색인 생성을 위해 추출된 어절의 수는 4천1백만 개였다. 여기에 덧붙여 단어 검색시 검색율을 높이기 위해 본문 어휘 중 2 글자가 넘는 어절은 모두 1 자 단위로 절단하여 색인을 생성한 결과, 색인 어휘의 총 수는 7천4백만 개가 되었다.

  <조선왕조실록>의 모든 기사를 정보화한 한 이 데이터베이스의 효용성은 여러 각도에서 찾아질 수 있을 것이다.  그 첫번째는 조선시대사 연구자들의 연구 능률을 획기적으로 향상시켜 줄 것이라는 점이다. 예컨대, 조선시대의 양민들이 억울함을 호소하는 수단으로 쓰였던 “신문고”에 대한 기사는 태종 1년(1491년)부터 순조 27년(1827년)까지 427년간 모두 172개가 나오는데, 이것은 CD-ROM을 이용하면 1초 이내에 얻을 수 이 결과이지만, 누군가 그 기록들을 일일이 책을 읽으면서 찾으려 했다면 하루에 100 페이지씩 읽어도 4년이 넘어 걸렸을 일이다. 이제 적어도 <실록>을 사료로 하는 역사 연구에서만큼은 연구자들이 ‘사료 찾기’의 부담에서 벗어나 역사의 참된 의미를 캐는 창의적인 연구에 몰입할 수 있는 계기가 마련되었다고 할 수 있다.

  사료를 다루는 데 있어서 역사 연구자보다 더 큰 어려움을 겪어 왔던 과학, 경제, 법제 등 다른 학문 분야 종사자들에게도 우리 사료를 손쉽게 접근할 수 있는 길을 열어 학제간 연구의 가능성을 높이게 된 것도 중요한 일이다. 태조 2년부터 헌종 12년까지 454년간 1,951 건의 지진이 발생한 기록을 순식간에 찾아내어 지질 연구의 자료로 사용한다든가, 태종 1년부터 헌종 9년까지 443년간 317건의 저화(종이돈) 사용에 대한 기록을 한꺼번에 끄집어내 경제사 연구의 자료로 활용하는 것 등은 예전에는 쉽게 기대할 수 있는 일이 아니었지만 <조선왕조실록> 데이터베이스는 그러한 유형의 작업을 지극히 용이한 일로 만들어 놓았다.


  3. <조선왕조실록> 데이터베이스 구축을 위한 자료 정리 작업


  정보화된 고전 자료 데이터베이스에 정보 검색 기능을 부가하여 위와 같은 자료 이용의 효용성을 이루는 일은 얼핏 프로그램 개발 능력을 가진 전산 기술자들만의 일인 듯이 보이지만, 실제로는 자료의 성격과 구조를 아는 고전 연구자들이 장기간의 노력 끝에 자연 상태의 원시 자료를 컴퓨터가 읽어 낼 수 형태의 ‘전산가독형(電算可讀形) 자료’로 변형시켜 놓았기 때문에 가능한 일이다. <조선왕조실록> 데이터베이스를 개발 사업에 참여한 인원 중에는 한국사 및 한문학을 전공한 15명의 상근 연구자와 대학원에서 같은 과정을 밟고 있는 200여명의 교정․교열 요원이 포함되었다.

  이들이 담당한 일 중 가장 중요한 것은 국역 실록의 용어 및 체제 정리 지침을 마련하여 그 원칙에 따라 자료를 정리해 낸 일이다. <실록>의 국역은 두 기관에서 분담하여 수행했기 때문에 두 기관의 번역문 사이에는 용어 사용이나 체제에 있어서 상이점이 적지 않았고, 또 워낙 오랜 기간 동안 여러 사람들에 의해 이루어진 일이라서 한 기관의 번역물 내에서도 차이나는 부분들이 있었다. 또 하나 중요한 사실은 전산 데이터는 어디까지나 정보 검색을 전제로 해서 만들어지는 것인 만큼 용어의 표기 원칙도 이 점을 고려해야 한다고 하는 것이다. 연구자들이 마련한 표기 및 체제 통일 지침 시안은 두 국역기관과의 협의를 거쳐 입력 및 교정 업무에 반영되었다.

  연구원들과 교정 담당자들이 해 낸 또 하나의 업무는 실록의 모든 기사에 대해 기사 요지문을 작성한 것이었다.  실록의 기사 중 짧은 것은 한 줄에 못미치는 것도 있지만 긴 것은 원고지 수백 매 분량인 것도 있다. 사용자가 데이터베이스 상에서 자료를 검색해서 얻은 결과가 몇 십 건이 나 몇 백 건에 이른다고 했을 때, 그 가운데 어느 기사가 과연 자기가 찾는 내용인지를 확인하기 위해 검색된 기사를 일일이 읽어야 한다면 그 부담도 만만치 않을 것이다. 이용자가 검색된 기사의 내용을 한 눈에 식별하여 취사 선택할 수 있도록 하기 위해 작성된 기사 요지문의 총분량은 문자 수로 1천7백만 자, 300 페이지짜리 책 50 권에 이르는 분량이었다.

  이와 같은 형태의 집필 업무와 교정 업무의 진행과 더불어 편집 담당 연구원들은 원시 데이터에 자료를 이루는 각각의 요소들 간의 구조적인 관계를 밝히는 기호를 부가하는 작업을 수행하였다. 이른바 ‘마크업’(MarkUp)이라고 하는 이 기호 부가 작업은 자료를 ‘전산가독형’으로 만드는 데 필수적인 일로서, 모든 데이터베이스 구축 작업은 반드시 이 과정을 거쳐야만 하는 것이다. <조선왕조실록> 데이터베이스 개발진은 이 데이터베이스를 만드는 과정에서 <실록> 뿐 아니라 대부분의 고전 자료의 전산화에 적용할 수 있는 마크업 규칙을 정하여 그 원칙대로 자료를 가공하였다. 이 마크업 작업은 부분적으로는 기계적으로 이루어질 수 있는 일이기도 하지만, 기본적으로 자료의 성격을 정확하게 이해하고 있는 사람만이 그 자료의 구조를 제대로 밝힐 수 있는 것이기 때문에 인문계 연구자들의 손에 의해 이루어지게 되었다. 마크업이 가해진 자료는 바로 데이터베이스로 변환될 수 있으며, ‘계층별 목차’, ‘어휘 색인’, ‘상관 색인’ 등이 거기에서부터 자동적으로 산출되어 데이터베이스 작업의 최종 목적인 ‘검색 기능’을 구현하게 된다.


  4. <국역 조선왕조실록> 본문 마크업


  <조선왕조실록> 데이터베이스를 위한 마크업 규칙을 이 자리에서 상세히 설명하고자 하는 이유는 고전 자료를 전산화 하고자 하시는 다른 연구자들도 이를 참고할 수 있도록 하기 위함이다.

  데이터베이스 구축을 목표로 자료를 정리하고자 할 때에는 그 자료의 성격에 맞는 ‘표준적인’ 정리 방법을 따르는 것이 중요하다. 예컨대 서지 목록 정보 데이터베이스를 만든다고 했을 때, 자기 혼자만 쓸 목적이 아니고 향후에 누군가와 그것을 공유하고자 한다면 우리는 「국제표준기구」(ISO)에서 정한 ‘서지 자료 교환에 관한 표준’(ISO 2709)이나 이 표준안을 기반으로 우리나라의 「공업진흥청」에서 정한 ‘도서목록기술규칙’(KS C 5867)에 따라 자료를 정리할 필요가 있다. 이 규칙에 따라 서지 목록 데이터를 만들면 새로운 프로그램을 개발하지 않고도 데이터베이스를 구축할 수 있으며, 미국 일본 유럽 등 세계 각처에서 공통적으로 사용될 수가 있는 것이다.

  <조선왕조실록>과 같이 서지 목록이 아닌 본문 데이터는 어떠한 표준을 좇아서 정리해야 할 것인가?  「국제표준기구」에서 정한 SGML(Standard Generalized Markup Language, ISO 8879)을 따를 수 있다면 가장 바람직할 것이다. 요즈음 ‘인터넷’이라고 하는 범세계적인 통신망 상에서 국제적으로 통용되고 있는 문서 형식인 HTML(Hyper Text Markup Language)는 바로 이 SGML에 기반하여 만들어진 것이다. 물론, 인문계의 고전 연구자들이 SGML과 같은 표준에 관해 정통한 지식을 갖는다는 것은 다소 무리일 수 있다. 또 그것은 그렇게 필요한 일도 아니다. 중요한 것은 SGML와 같은 표준적인 방법의 기본 개념을 이해하고 그 기본 개념에 맞추어 자료를 정리하는 것이다. 그 나머지는 전산 전문가들이 알아서 해 줄 수 있는 일이다.

  <조선왕조실록> 데이터베이스를 위한 마크업 규칙은 HTML을 기반으로 하고 거기에  <실록>의 자료적 특성을 표현하는 데 필요한 몇 가지 기호(TAG)를 첨가하여 만들어졌다.  다음에 보이는 것은 국역 조선왕조실록에 적용한 마크업의 일례이다.

<h1>중종실록</h1>

 

<h2>중종 공휘 휘문소무 흠인성효 대왕 실록 제1권</h2>

 

<h3>총서</h3>

 

<t>

<s>중종실록 총서</s>

<p>왕의 휘는 역(懌)이요, 나는 낙천(樂天)이다. 성종대왕(成宗大王)의 둘째 아들이며, .... 향년 57세였다.</p>

</t>

 

<h3>원년(1506)<n>명(明) 나라 <c def=“명 나라 제10대 무종(武宗)의 연호.”>정덕(正德)</c> 원년</n></h3>

 

<h4>9월</h4>

 

<h5>2일(무인)</h5>

 

<t>

<s>중종 반정을 일으키다.</s>

<p>지중추부사 박원종․부사용․성희안<n>일찌기 이조 참판으로 있다가 갑자기 강등되었다.</n>․이조 판서 유순정 등이 주동이 되어 건의하고서, ...... 밀약하였다.</p>

<p>거사하기 하루 전날 저녁에 희안이 김감․김수동의 집에 가서 모의한 것을 갖추 고하고, 이어 박원종․유순정과 더불어 훈련원에서 회합하니 ..... 궁궐 안에 입직하던 여러 장수와 군사 및 도총관 민효중 등은 변을 듣고 <c def="궁궐 안의 도랑“>금구(禁溝)</c>의 수채구멍으로 먼저 빠져나가고, ..... 궁궐 안이 텅 비었다.</p>

<e>

<p>사신은 논한다.</p>

<p>연산은 성품이 포악하고 살피기를 좋아하며 정치를 가혹하게 하였다. ... 스스로 시를 짓기를,

<pre>

씩씩한 기운 어린 선봉(仙峯)은 푸른 하늘에 치솟았고,       壯氣仙峯聳碧霄

......                                                      ......

우리나라가 영원히 잘살도록 하기 위함이로다.              都爲東都表壽饒

</pre>

라 하였다. 또 문신으로 하여금 세 산의 이름 붙인 뜻으로 시를 지어 편액에 쓰게 하고 .... 철폐하지 않았다.</p>

</e>

</t>

 

<t>

<s>숙용 장녹수 등을 참하고 폐주의 금인․화압․승명패를 철폐하다.</s>

<p>대신 등이 모두 아뢰기를,

<blockquote>

“숙용 장녹수․숙용 전전비․숙원 김귀비 등 세 사람은 모두 화근의 장본인이니 마땅히 속히 제거하여야 합니다.”

</blockquote>

하니, 그리하라고 전교하였다.</p>

<p>모두 참형에 처하고, 가산을 적몰하였다. ..... </p>

</t>

 

<h5>3일(기묘)</h5>

 

<t>

<s>폐주를 연산군으로 강봉하다.</s>

<p>박종원 등이 모두 의논하여 아뢰기를,

<blockquote>

<p>“폐주를 강봉하여 군으로 삼는 것을 <c def=“노산군은 단종. 세조가 즉위한 뒤 단종을 폐위하여 상왕으로 삼았다가 다시 노산군으로 강봉하여 강원도 영월로 내쫒았던 예.”>노산군(魯山君)의 예</c>와 같이 하고, 폐주의 후궁으로 봉작된 자는 따로 둘 것이며, ..... 옛날대로 통행하게 하소서.</p>

<p>폐주조에 쫓겨난 재상으로 쓸 만한 사람 및 죄없이 직첩을 빼앗기고 파직당한 사람은 ..... 옛날대로 다시 설치하소서.”</p>

</blockquote>

하니, 좋다고 전교하였다.</p>

</t>

   

  <실록> 본문의 곳곳에 부가한 여러 가지 기호들은 각각의 요소들간의 구조적인 관계를 정의하는 역할을 한다. 유념해야 할 점은 이러한 ‘마크업’의 역할이란 자료의 구조를 표현하는 것이지 형태를 표현하는 것은 아니라고 하는 점이다. 이것이 SGML의 기본 개념이라고 해도 무방하다. 자료를 구조적으로 분석하여 그것이 어떠한 요소들로 이루어져 있으며, 그 중 어느것이 어느것보다 상위의 요소이고 무엇이 무엇에 종속되어 있는지를 밝히는 것이 마크업 작업의 목적이다. 그 작업을 하게 되면 데이터베이스가 만들어지게 되는 것이다.  조선왕조실록에 적용한 마크업 기호의 종류와 용도는 다음과 같다.


  1)  표제를 표시하는 기호


  <국역 조선왕조실록> 데이터베이스는 연대기(年代記) 자료인 <실록>을 중층 구조(重層構造)로 엮어, 한 기사의 앞 뒤 기사를 바로 찾아볼 수 있도록 했을 뿐만 아니라 달[月]-년(年)-왕대(王代)간의 이동 및 접근이 자유롭게 이루어지도록 하였다. 그렇듯 중층 구조로 자료를 역기 위해서는 각각의 기사의 상․하․전․후 관계를 정하여 그것을 컴퓨터가 인식할 수 있도록 해야 한다. <실록> 데이터베이스에서는 아래와 같이 각각의 표제에 대해 계층적 정보를 포함하는 기호를 부가함으로 기사들 간의 관계를 구조화 하였다.


  ① <h1> ....... </h1>  왕대별 <실록>의 최상위 표제를 묶는 데 사용하였다.


  ② <h2> ....... </h2>  실록 각권의 표제를 묶는 데 사용하였다.


  ③ <h3> ....... </h3>  재위년, 총서, 부록 및 <세종실록>의 「오례」, 「지리지」 표제를 묶는다.


  ④ <h4> ....... </h4>  월 표시 및 「오례」, 「지리지」의 대항목 표제


  ⑤ <h5> ....... </h5>  일, 간지 표시 및 「오례」, 「지리지」의 중항목 표제


  ⑥ <h6> ....... </h6>  「오례」, 「지리지」의 소항목 표제      


  ⑦ <h7> ....... </h7>  「오례」, 「지리지」의 세항목 표제


  2) 본문의 구조를 표시하는 기호


  ① <t> ..... </t>  기사 본문의 시작과 끝 (text)

  원전 및 국역본의 ○표를 한 기사로 처리하여, 그 기사의 시작과 끝을 표시하는 기호로 사용하였다.  단, 한 기사의 길이가 원고지 100매 분량이 넘는 경우, 열람의 편의를 위하여 기사를 분할하고 해당 기사 제목 뒤에 ① ② ③ 등의 번호를 달았다.


  ② <n> ..... </n> 원주 (notes)

   <조선왕조실록> 원전 편찬 당시 편수관이 달아 둔 원주(原註)를 표시한다. CD-ROM 데이터베이스에서는 정보 열람시 이 부분이 【회색】으로 표시된다.


  ③ <e> ..... </e> 사론 (historiographer's essay)

  <실록> 본문 중 ‘사신왈(史臣曰)에 해당하는 사신의 논평(論評) 부분을 표시한다. CD-ROM 데이터베이스에서는 정보 열람시 이 부분이 【분홍색】으로 표시된다.


  ④ <r> ..... </r>  다른 판본의 기록 (revision)

  판본(版本)에 이동(異同)이 있는 <광해군일기>의 경우, 대본(臺本)인 중초본(中草本)과 차이가 있는 정초본(正草本)의 내용을 표시한다. <r> ..... </r> 앞에 있는 < ..... > 표시는 < ..... > 내용이 <r> ..... </r>으로 첨삭(添削)되었음을 말하고, <r> ..... </r>만 있는 경우는 그 부분이 보첨(補添)되었음을 말한다. CD-ROM 데이터베이스에서는 정보 열람시 이 부분이 【하늘색】으로 표시된다.


  3) 본문에 부가된 정보를 표시하는 기호


  ① <s> ...... </s> 본문 내용 요약문의 시작과 끝 (summary)

  원전 및 국역본의 ○표를 한 기사로 하여, 각 기사마다 그 기사 내용을 축약 표현한 기사제목을 표시한다.  기사 제목 안의 단어들은 별도의 별도의 검색 접근점으로도 쓰일 수 있게 하였다.    


  ② <a> ....... </a>   관련 자료 연결(anchor)

  <세종실록> 「오례(五禮)」편에 있는 삽도(揷圖)의 제목을 표시하고 관련 시각 자료를 연결해 볼 수 있게 한다. CD-ROM 데이터베이스에서는 정보 열람시 이 부분이 【녹색】으로 표시된다. 

  ※ 문법: <a img src=“시각 자료 파일 이름”>삽도의 제목</a>


  ③ <c> ..... </c> 역주 (translator's comentary)

  국역자(國譯者)가 단 역주(譯註) 및 의 해당어를 표시한다. CD-ROM 데이터베이스에서는 정보 열람시 이 부분의 해당어가 【파란색】으로 표시되며, 표시 부분을 마우스로 클릭하면 역주를 볼 수 있다. 단 역주 해당어가 너무 긴 경우에는 편의상 일부분만을 해당어로 처리하였다.

  ※ 문법: <c def="용어 해설”>해당어</c>


  ④ <g> .... </g> 분류 (grouping)

  국사편찬위원회의 <조선왕조실록> 항목 분류 정보 및 원전의 면수를 표시한다. CD-ROM 데이터베이스에서는 정보 열람시 이 부분이 【녹색】으로 표시된다. 


  4)  문단을 표시하는 기호


  ① <p> ........ </p> 문단

  기사 중의 한 문단을 표시한다.


  ② <pre> ..... </pre>  편집된 문단

  데이터를 컴퓨터 화면에 재현할 때 편집된 형태를 그대로 유지해야 할 부분을 표시한다.


  ③ <blockquote> ..... </blockquote> 인용문

  인용문으로 처리해야 할 부분을 표시한다.

     

  5) 본문 속에 사용된 문장 부호


  특별히 태그(tag)를 사용할 필요가 없는 부분에 대해서는 아래와 같은 문장부호를 사용하여 요소의 성격을 표시하였다.


부호

기   능

(  )

음(音)이 같은 한자를 묶는다.

〔  〕

뜻은 같으나 음이 다른 한자를 묶는다.

“  ”

대화 등의 인용문을 묶는다.

‘  ’

2차 인용이나 강조 어구를 묶는다.

「  」

3차 인용을 묶는다.

『  』

4차 인용을 묶는다.

[  ]

5차 인용을 묶는다.

【  】

6차 인용을 묶는다.

〈  〉

(2B)

국역자가 달아 준 보충역(補充譯)을 묶는다. 다만 <광해군일기>에서는 중초본(中草本)에 있는 내용을 묶는 데도 사용하였다.

 《  》

책명을 묶는다.

­  ­

원주(原註) 안에 또 원주가 있는 경우 사용한다.

:

역주(譯註) 안에 또 역주가 있는 경우 사용한다.

* 

원전(原典)의 대문(大文)에 삽입된 소자 쌍행(小字雙行)의 원주(原註)가 긴 경우 기사문 뒤로 옮긴 국역본의 체제를 따라, 원래 있던 자리와 옮겨진 자리 앞에 사용한다. 화면에서는 회색으로 나타난다.

○ 

원주(原註) 안에서 내용이 달라질 때 앞의 내용과 구별하기 위해 쓰거나, 한 기사 안에 소제목이 있고 그 소제목에 대한 설명이 있을 경우 소제목과 설명을 구별하기 위해 사용한다.

□ 

한자(漢字)의 모양이나 한글 음(音)이 미상(未詳)인 경우 및 일진(日辰)이 미상인 경우 사용한다.

?? 

일진(日辰)이 착간되어 날짜를 알 수 없는 경우 사용한다.


  5. <원전 조선왕조실록> 데이터베이스


  <조선왕조실록>은 국역문 데이터베이스가 개발된 데 이어, 현재는 한문 원전(漢文原典)에 대한 데이터베이스화 사업이 국사편찬위원회와 서울시스템(주)의 공동 사업으로 진행되고 있다. 개발진은  이 데이터베이스가 향후 조선왕조실록 연구의 기본 텍스트로 발전되어야 한다는 생각에서 자료를 정리하는 과정에 마크업 정보와 함께 원문에 대해 상세한 표점(標點)을 부가한다는 방침을 정하였고, 그에 따라 입력 작업과 표점 작업 및 데이터베이스 구축 작업을 함께 병행하고 있다.  한문 원전의 표점 방식은 중국에서 이십오사(二十五史) 표점본을 간행할 때에 적용한 규칙을 준용하였는데, 이십오사에서는 혼용되었던 지명과 인명을 구분하여 표시하도록 하였다. 한문 원전 <조선왕조실록>의 마크업은 국역 <실록>의 경우와 동일한 방식을 취하고 있으며, 본문 표점에는 다음과 같은 문장부호와 교감기호를 사용하고 있다.


  1) . 마침표:  한 구절의 말이 끝난 곳에 쓰여 구절을 마쳤음을 표시.

  2) , 쉼표: 문장 내부의 단락을 구분하여 말 중간의 쉼을 표시.

  3) ; 세미콜론: 문장 내부의 비교적 큰 범주의 쉼을 표시.

  4)  돈호: 문장 속에서 쉼을 표시하되, 병렬 성분의 중간에 사용.

  5) ․ 가운데점: 큰 동격의 명사 내에 작은 동격의 명사를 분리하는 표시로 사용.

  6) : 콜론: 다음 문장의 예속 표시, 왈(曰)․언(言)․운(云) 등 전달동사 뒤,

           서신 속의 호칭 뒤, 앞  문장의 내용을 총괄는 경우 등에 사용.

  7) ! 느낌표: 감탄문, 기원문의 끝. 또는 강열한 감정을 표시하는 단어의 끝에 사용.

  8) ? 물음표: 의문문, 설문문, 반어문 및 선택의문문의 끝부분에 사용.

  9) 인용문의 표시

       “  ”: 1차 인용

       ‘  ’: 2차 인용

       「 」: 3차 인용

       『 』: 4차 인용

  10) 점선 밑줄: 인명을 위주로 한 자(字), 호(號), 시호(諡號), 봉작(封爵), 능호(陵號)

       등을 표시하는 데 사용.  단, 陵號는 지명으로 쓰인 것이 명백할 경우 실선 밑줄 표시.

  11) 실선 밑줄: 고유명사를 표시하는 부호로 사용.  국명, 지명, 건물명, 교각명, 절, 창고,

       전문(錢文), 부족, 연호 등을 표시하는 데 사용

  12) 물결선 밑줄: 서명(書名), 편명(篇名), 곡명(曲名) 등에 사용한다.

  13) 교감 부호

       (   ) [  ]: 교감(校勘)의 표시.

       (   ): 연문(衍文)의 표시.

       [   ]: 탈락된 글자의 보충 표시.


  현재까지 원전 조선왕조실록 전산화의 진행 정도는 자료 입력에 있어서 태조에서부터 숙종(영인본 1집~37집)까지의 데이터가 입력되었으며,  표점 업무는 서울시스템의 표점 연구 팀에 의해 태조에서 세종(영인본 1집~6집)까지의 표점이 완료되었고, 문종~성종 부분은 원문 교정이 마쳐진 상태에서 표점이 진행되고 있으며, 국사편찬위원회 고중세사실 연구 팀에 의해서는 연산군에서부터 중종 31년(영인본 12집~17집)까지의 표점이 마무리되었고, 중종실록의 나머지 부분 및 인종․명종실록의 표점 업무가 현재 진행 중에 있다. 작업의 진행 방식은 서울시스템에서 원문 데이타를 입력한 후 1차 대조 교정을 거처 국사편찬위원회에 제공하면 국사편찬위원회서 2차 대조 교정, 표점, 3차 교정의 작업을 차례로 진행하여 그 결과물을 서울시스템에 되돌려 데이터베이스에 적재하는 형태로 진행하고 있다. 이와 같은 기초 작업이 완료되게 되면 코드 및 서체 보완 작업과 데이터베이스 운영 시스템의 보완 작업, 데이타에 대한 최종 감수 과정 등을 거쳐 1999년 까지는 한문 원전 <조선왕조실록> 데이터베이스의 출간이 가능할 것으로 전망된다. <원전 조선왕조실록> 데이터베이스는 CD-ROM 간행과 함께 책자로도 간행할 계획이며, 궁극적으로는 온라인 데이터베이스화 되어 국내외의 연구자들에게 제공될 것이다.


  6. 맺음말


  필자는 주위에서 많은 국학 분야의 연구자들이 데이터베이스화를 목표로 자신의 연구 주제와 관련된 기본 자료를 컴퓨터에 입력하는 것을 보게 되는데, 안타까운 것은 자료의 체제를 주관적으로 정하고 데이터를 만들기 때문에 그것을 가지고 제대로 된 데이터베이스를 만들기 위해서는 많은 부분에 다시 손을 대야 한다는 점이다. 자료 전산화의 분야에는 이른바 ‘표준’이 되는 ‘약속’들이 존재한다. 그 표준을 따라 만들어진 자료는 누구나 쉽게 데이터베이스로 구축할 수 있다. 표준적인 자료 양식을 데이터베이스화하는 많은 요소 기술과 프로그램들이 이미 개발되어 있기 때문이다. 반면, 표준적인 방법으로 가공되지 않은 원시 자료를 가지고 데이터베이스를 만들고자 할 경우에는 새로운 프로그램을 만들어야 하는데 그것은 적지않은 시간과 비용을 수반하기 마련이고, 결국 데이터베이스를 만드는 것 자체가 어려워지고 마는 것이다.

  물론, 고전 연구자들이 목록 기술 규칙이나 자료 마크업 기술 규칙에 관해 세세한 것까지 다 알아야 할 필요는 없다. 하지만, 그러한 규칙들이 기본적인 개념을 이해하여 그 틀에서 크게 벗어나지 않는 범위에서 작업을 진행한다면 나중에 전문 기술자에게 의뢰할 업무의 양이 크게 줄어들 것이고, 이것은 자료 전산화에 소요되는 시간과 비용을 절약하게 해 줄 것이다.

  한 편으로 더욱 중요한 사실은 고전 자료의 전산화 업무가 몇 가지 기술적인 것에 대한 이해를 필요로 한다고 해서 그 일을 전적으로 전산 기술자에게만 맡길 수는 없다고 하는 점이다.  앞서 언급한 <조선왕조실록> 자료의 마크업 예를 통해서도 알 수 있듯이, 그 자료의 구성 요소를 적절히 분석해 내어 그 구조를 드러내는 일은 전적으로 자료의 성격을 정확히 하는 사람만이 담당할 수 있는 일이다.

  <조선왕조실록> 전산화에 적용한 자료 정리의 방법이 다른 고전 자료의 전산화에도 참고가 될 수 있기를 바라며, 이 데이터베이스의 개발을 계기로 고전 연구자들이 이미 만들어진 데이터베이스를 활용하는 일 뿐 아니라, 자료로서의 가치가 높은 다른 문헌들도 전산화하는 일에 적극적인 관심을 갖고 참여해 주시기를 기대한다.




* 서울시스템(주) 한국학데이터베이스연구소 상무이사, 고려대학교 민족문화연구소 연구교수